max rank | avg. rank | sentence |
---|---|---|
139 | 46.7143 | Shqipëria duhet të jetë një prej tyre. |
163 | 61.3333 | Në Shqipëri ka një vit që nuk kam qenë. |
193 | 85.2500 | E në fund të fundit, tashmë ashtu është. |
211 | 68.7000 | Dhe të tillë nuk ka pasur e nuk ka pak. |
236 | 88.5000 | Dhe në fakt, ajo ashtu ka bërë deri më sot. |
242 | 76.7778 | Ka shumë në Tiranë, ka shumë në gjithë Shqipërinë. |
247 | 80.2727 | Më në fund, nuk është kështu edhe për një fakt tjetër. |
282 | 89.0000 | Në vitin 2013 do të ketë dy vende të tjera. |
295 | 82.0000 | Kjo duhet të jetë e mundur edhe me Shqipërinë. |
312 | 90.8571 | Ndërkohë që kjo nuk është e vërtetë. |
312 | 91.6154 | Një gjë është e vërtetë: Shqipëria nuk është më ajo e vitit 2013. |
322 | 103.5000 | Ai nuk është më shumë se katër vjeç. |
326 | 100.8750 | "Ky do jetë një takim shumë i rëndësishëm. |
327 | 98.4444 | E kam të vështirë të ndaj një të tillë. |
327 | 64.0000 | Për ne do të jetë shumë e vështirë. |
339 | 161.1250 | Në fakt, ka filluar ndërkohë ta bëjë këtë. |
367 | 120.9091 | Edhe deri pak minuta më parë me këtë punë jemi marrë. |
375 | 91.0000 | Kjo, jo vetëm në rastin e Shqipërisë. |
404 | 90.1818 | Por këtë vit nuk do të jetë edhe aq e thjeshtë. |
404 | 117.0000 | Por, nuk është aq e thjeshtë sa duket. |
416 | 68.0769 | Ky do të jetë një proces dhe do të mund të marrë kohë. |
434 | 190.7143 | Kështu ndodh edhe në rastin e Shqipërisë. |
434 | 220.4286 | Po kështu ndodh edhe në jetën kombëtare. |
440 | 125.7500 | “Ai nuk është shqiptar, me sa di unë. |
452 | 107.0000 | Shqipëria dhe shqiptarët e kanë në fund të fundit vetë në dorë. |
469 | 219.0833 | Në gjendje të lirë, në gjendje të lirë, në gjendje të lirë! |
469 | 219.0833 | Në gjendje të lirë, në gjendje të lirë, në gjendje të lirë. |
471 | 183.2222 | Ata që e kishin gjetur me vend, të paktën. |
483 | 131.5556 | Këto fjalë sot janë më shumë se të kohës. |
491 | 122.8182 | Por nuk mund te jete ndryshe se eshte ai qe eshte. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II